检索结果

Select

1. 融合好奇心和策略蒸馏的稀疏奖励探索机制

王子腾, 于亚新, 夏子芳, 乔佳琪

《计算机应用》唯一官方网站 2023, 43 (7): 2082-2090. DOI: 10.11772/j.issn.1001-9081.2022071116

摘要（168）

HTML （6）

PDF （1696KB）（242）

深度强化学习算法在奖励稀疏的环境下，难以通过与环境的交互学习到最优策略，因此需要构建内在奖励指导策略进行探索更新。然而，这样仍存在一些问题：1）状态分类存在的统计失准问题会造成奖励值大小被误判，使智能体（agent）学习到错误行为；2）由于预测网络识别状态信息的能力较强，内在奖励产生状态的新鲜感下降，影响了最优策略的学习效果；3）由于随机状态转移，教师策略的信息未被有效利用，降低了智能体的环境探索能力。为了解决以上问题，提出一种融合随机生成网络预测误差与哈希离散化统计的奖励构建机制RGNP-HCE （Randomly Generated Network Prediction and Hash Count Exploration），并通过蒸馏（distillation）将多教师策略的知识迁移到学生策略中。RGNP-HCE机制采用好奇心分类思想构建融合奖励：一方面在多回合间以随机生成网络预测差构建全局好奇心奖励；另一方面在单回合内以哈希离散化统计构建局部好奇心奖励，从而保证内在奖励的合理性以及策略梯度更新的正确性。此外，将多个教师策略学习到的知识通过蒸馏迁移到学生策略中，有效提升学生策略的环境探索能力。最后，在Montezuma’s Revenge与Breakout测试环境中，把所提机制与当前主流的4个深度强化学习算法进行了对比实验，并执行了策略蒸馏。结果表明，相较于当前高性能的强化学习算法，RGNP-HCE机制在两个测试环境中的平均性能均有提升，且蒸馏后学生策略的平均性能又有进一步的提升，验证了RGNP-HCE机制与策略蒸馏方法对提升智能体的环境探索能力是有效的。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 融合协同知识图谱与反事实推理的可解释推荐机制

夏子芳, 于亚新, 王子腾, 乔佳琪

《计算机应用》唯一官方网站 2023, 43 (7): 2001-2009. DOI: 10.11772/j.issn.1001-9081.2022071113

摘要（231）

HTML （11）

PDF （1898KB）（367）

为构建透明可信的推荐机制，相关研究工作主要通过可解释推荐机制为个性化推荐提供合理解释，然而现有可解释推荐机制存在三大局限：1）利用相关关系只能提供合理化解释而非因果解释，而利用路径提供解释存在隐私泄露问题；2）忽略了用户反馈稀疏的问题，解释的保真度难以保证；3）解释粒度较粗，未考虑用户个性化偏好。为解决上述问题，提出基于协同知识图谱（CKG）与反事实推理的可解释推荐机制（ERCKCI）。首先，基于用户自身的行为序列，采用反事实推理思想利用因果关系实现高稀疏度因果去相关，并迭代推导出反事实解释；其次，为提升解释保真度，不仅在单时间片上利用CKG和图神经网络（GNN）的邻域传播机制学习用户和项目表征，还在多时间片上通过自注意力机制捕获用户长短期偏好以增强用户偏好表征；最后，基于反事实集的高阶连通子图捕获用户的多粒度个性化偏好，从而增强反事实解释。为验证ERCKCI机制的有效性，在公开数据集MovieLens（100k）、Book-crossing和MovieLens（1M）上进行了对比实验。所得结果表明，该机制在前两个数据集上相较于RCF（Relational Collaborative Filtering）推荐模型下的ECI（Explainable recommendation based on Counterfactual Inference），在解释保真度上分别提升了4.89和3.38个百分点，在CF集大小上分别降低了63.26%、66.24%，在稀疏度指标上分别提升了1.10和1.66个百分点，可见该机制能有效提升可解释性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. NDBC2022-P00183 融合好奇心和策略蒸馏的稀疏奖励探索机制

王子腾于亚新夏子芳乔佳琪

Select

4. 协同知识图谱与反事实融合的可解释推荐机制

夏子芳于亚新王子腾乔佳琪